網頁爬蟲就是透過寫程式與網站溝通,一般是從網址輸出後,伺服器收到並回傳原始碼經由網站轉為我們能夠閱讀的模式。
瀏覽器會把網站回傳的資訊呈現給使用者,你可能會覺得沒必要多此一舉,但如果你常常需要取得網站最新消息,或針對不同網站做資訊比對,或是要從網站複製貼上大量資料,網頁爬蟲可能就可以更好的達成你的需求。
先用系統管理員打開命令提示字元 (cmd),輸入pip來看你的python安裝了哪些套件
安裝 requests、BeautifulSoup4 套件:
輸入pip install requests跟pip install BeautifulSoup4
取得url:
按F12進入開發人員工具後,點Network並重新整理後你會看到一串資料,我們找到最頂端的資料取得url。
語法:
輸入這段程式碼, 貼上url
以下為網頁的程式碼: